由于策略梯度定理导致的策略设置存在各种理论上 - 声音策略梯度算法,其为梯度提供了简化的形式。然而,由于存在多重目标和缺乏明确的脱助政策政策梯度定理,截止策略设置不太明确。在这项工作中,我们将这些目标统一到一个违规目标,并为此统一目标提供了政策梯度定理。推导涉及强调的权重和利息职能。我们显示多种策略来近似梯度,以识别权重(ACE)称为Actor评论家的算法。我们证明了以前(半梯度)脱离政策演员 - 评论家 - 特别是offpac和DPG - 收敛到错误的解决方案,而Ace找到最佳解决方案。我们还强调为什么这些半梯度方法仍然可以在实践中表现良好,表明ace中的方差策略。我们经验研究了两个经典控制环境的若干ACE变体和基于图像的环境,旨在说明每个梯度近似的权衡。我们发现,通过直接逼近强调权重,ACE在所有测试的所有设置中执行或优于offpac。
translated by 谷歌翻译
Property inference attacks against machine learning (ML) models aim to infer properties of the training data that are unrelated to the primary task of the model, and have so far been formulated as binary decision problems, i.e., whether or not the training data have a certain property. However, in industrial and healthcare applications, the proportion of labels in the training data is quite often also considered sensitive information. In this paper we introduce a new type of property inference attack that unlike binary decision problems in literature, aim at inferring the class label distribution of the training data from parameters of ML classifier models. We propose a method based on \emph{shadow training} and a \emph{meta-classifier} trained on the parameters of the shadow classifiers augmented with the accuracy of the classifiers on auxiliary data. We evaluate the proposed approach for ML classifiers with fully connected neural network architectures. We find that the proposed \emph{meta-classifier} attack provides a maximum relative improvement of $52\%$ over state of the art.
translated by 谷歌翻译
当有几个有限的电力设备可用时,凭借这些资源的利润最有效的方式之一,同时降低处理延迟和通信负载,是在并行运行几个神经子网络中,并在处理结束时融合结果。然而,这种子网的组合必须专门用于设备的每个特定配置(以设备的数量及其容量为特征),其可以在不同的模型部署中变化,并且甚至在同一部署内。在这项工作中,我们介绍了平行的可分配可泥浆(Paradis)神经网络,其在不再培训的情况下在各种设备配置中并行地打开。虽然受泥块网络的启发,但允许即时自适应在仅一个设备上对资源,但是Paradis网络由多个多设备可分配配置或开关组成,强烈共享它们之间的参数。我们在MobileNet V1和Reset-50架构上评估MobileNet V1和Reset-50架构的Paradis框架,用于图像超分辨率任务的WDSR架构。我们表明,Paradis交换机比单个模型实现相似或更好的准确性,即单独培训的相同结构的分布式模型。此外,我们表明,与不可分割的普遍可泥土网络相比,可分配的Paradis交换机的准确性在最糟糕的情况下,只能在最多1%的情况下全部或下降1%。最后,一旦分布在几个设备上,Paradis优于较大的碎片模型。
translated by 谷歌翻译